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Titre de I'invention 

Proceed de classification automaOque d'un ensemble d'alertes 
issues de sondes de detection d'intrusions d'un systeme de securite 
dlnformation. 

5 

Arriere-plan de I'invention 

L'invention concerne un procede de classification automatique 

d'un ensemble d'alertes issues de sondes de detection d'intrusions. 

La securite des systemes d'information passe par le 
10 deploiement de systemes de detection d'intrusions «IDS» comportant 

des sondes de detection d'intrusions qui emettent des alertes vers des 

systemes de gestion d'alertes. 

En effet f les sondes de detection d'intrusions sont des 

composants actifs du systeme de detection d'intrusions qui analysent une 
15 ou plusieurs sources de donnees a la recherche d'evenements 

caracteristiques d'une activite intrusive et emettent des alertes vers les 

systemes de gestion d'alertes. Un systeme de gestion des alertes 

centralise les alertes provenant des sondes et effectue eventuellement une 

analyse de I'ensemble de ces alertes. 
20 Les sondes de detection d'intrusions generent un tres grand 

nombre d'alertes qui peut comprendre plusieurs milliers par jour en 

fonction des configurations et de I'environnement. 

L'exces d'alertes peut resulter d'une combinaison de plusieurs 

phenomenes. Tout d'abord, des fausses alertes represented jusqu'a 90% 
25 du nombre total d'alertes. Ensuite, les alertes sont souvent trap 

granulaires, c'est-a-dire que leur contenu semantique est tres pauvre. 

Enfin les alertes sont souvent redondantes et recurrentes. 

Le traitement amont des alertes au niveau du systeme de 

gestion est done necessaire pour faciliter le travail d'analyse d'un 
30 operateur de securite. Ce traitement consiste a correler les alertes, e'est a 
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dire a reduire la quantite globale des alertes, tout en ameliorant leur 
semantique. Ceci peut etre fait par une classification non supervisee des 
alertes. 

L'objectif de la classification non supervisee est de decouper 
5 I'espace des alertes en plusieurs classes en tenant compte des variables 
qui les caracterisent. 

Dans le present domaine d'application, les alertes qui font 
l'objet de la classification sont decrites par des variables essentiellement 
qualitatives et structurees. 
10 Les variables qualitatives et structurees sont des variables 

appartenant a des domaines discrets dont chacun est muni d'un ordre 
partiel. 

Les methodes de classification des variables qualitatives 
structurees sont dites des classifications conceptuelles. 
15 Une methode de classification conceptuelle est proposee par 

R.S. Michalsky et R.E. Stepp, dans une publication intitulee "Learning from 
Observation : Conceptual Clustering", dans le journal "In Machine 
Learning : An, Artificial Intelligence Approach", public en 1993. 

Cette methode construit de maniere descendante une 
20 hierarchie conceptuelle a partir d'un ensemble de donrtees, en 
determinant une partition d'un ensemble complet de donnees en plusieurs 
classes disjointes. 

L'approche utilisee dans cette methode de Michalsky est done 
inadaptee a la classification des alertes, puisqu'elle partitionne I'ensemble 
25 des donnees et est incapable d'integrer une nouvelle donnee sans avoir a 
etre reinitialisee. 

En effet, les bases de donnees des alertes sont fortement 
dynamiques car ii peut y avoir plusieurs nouvelles alertes par seconde. 

Une autre methode de classification conceptuelle est proposee 
30 par D.H. Fisher, dans une publication d'une these de doctorat, intitulee 
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"Knowledge Acquisition via Incremental Conceptual Clustering", au 
« Department of Information and Computer Science, University of 
California », publiee en 1987. 

La m&hode de Fisher est une classification conceptuelle 
5 incrementale, qui ne necessite pas une connaissance prealable du nombre 
de classes souhaitees. En revanche, cette methode est utilised pour des 
variables nominales. 

D'autres methodes derivees de la methode de Fisher prennent 
en charge des donnees structurees. La structure de la hieYarchie obtenue 
10 par ces methodes est fortement dependante de I'ordre d'insertion des 
donnees. De plus, Papproche de Fisher produit une partition de Pensemble 
des donnees. 

Par ailleurs, Manganaris et al, dans une publication au « 2nd 
International Workshop on Recent Advances in Intrusion Detection 1999», 

15 intitulee "A Data Mining Analysis of RTID Alarms", proposent de modeliser 
un comportement tolere d'un systeme d'information a I'aide des alertes 
fournies par les outils de detection d'intrusions. Utilisation des systemes 
de detection d'intrusions « IDS » en milieu operationnel montre en effet 
que les alertes les moins frequentes sont generalement les plus suspectes. 

20 Selon ce modele, les alertes recurrentes sont consid^rees 

comme etant soit des fausses alertes dues au comportement normal 
d'entites du systeme d'information, mais qui semble intrusif du point de 
vue des systemes IDS, soit des defaillances des entites. 

Une autre methode de classification d'alertes est proposee par 

25 K. Julisch, dans une publication de « Proceedings of the 17th ACSAC » en 
2001, intitulee "Mining Alarm Clusters to Improve Alarm Handling 
Efficiency". Cette methode propose une generalisation des alertes pour 
mettre en evidence des groupes d'alertes plus pertinents que chaque 
alerte prise individuellement. 
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La methode utilisee par Julisch est une modification d'une autre 
methode connue proposee par Han et al, publiee dans « Advances in 
Knowledge Discovery and Data Mining, AMI Press » en 1996 sous le titre 
"Exploration of the Power of Attribute-Oriented Induction in Data-Mining". 
5 /Mit Press, 1996. 

Sommairement, la methode utilisee par Han consiste a 
generaliser des variables structures. Le domaine de chaque variable 
possede un ordre partiel represents par une hierarchie arborescente, dont 
le niveau d'abstraction ou generalisation va croissant des feuilles au 
10 sommet de la hierarchie. 

La methode de Hall est iterative. Chaque iteration consiste a 
choisir un attribut et a generaliser la valeur de I'attribut de chaque 
individu, en fonction de la hierarchie qui lui est associee. Les variables qui 
deviennent egales, suite a une generalisation, sont fusionnees. Le nombre 
15 global de variables decroft done a chaque iteration. Le processus s'arnlte 
lorsque le nombre de variables devient inferieur a un seuil donne. 

Ce critere d'arret n'est pas satisfaisant car on ne peut pas 
savoir a priori combien de groupes d'alertes il est souhaitable de presenter 
a I'operateur de security. De plus, les alertes generalises obtenues 
20 risquent d'etre sur-generalisees et leur interet limite. La difficulty de 
I'approche consiste done a trouver un bon compromis entre une reduction 
importante du nombre d'alertes et le maintien de leur pertinence. 

Alors, la modification apportee par Julisch consiste a retirer de 
I'ensemble d'alertes soumises au processus de generalisation toute alerte 
25 generalisee dont le nombre d'instances d'alertes sous-jacentes depasse un 
seuil donne. 

Afin d'eviter le phenomene de sur-generalisation, la 
generalisation effectuee sur les alertes generalises restantes est annulee, 
et le processus est reitere avec un autre attribut. 
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L'inconvenient de cette methode est qu'elle ne permet pas 
d'identifier des generalisations pertinentes qui auraient pu se presenter si 
les alertes fournies a I'operateur de securite avaient ete conservees pour 
les generalisations suivantes. De plus, la nature des alertes generalisees 
5 obtenues depend de I'ordre des attributs qui est base sur des heuristiques. 

Enfin, la methode de Julisch n'est pas incrementale et le 
processus de generalisation doit etre reinitialise a chaque requeue de 
I'operateur de security. 

10 Objet et resume de I'invention 

L'invention a pour but de remedier a ces inconvenients, et de 
fournir une methode simple de classification non supervisee des alertes 
issues de sondes de detection dlntrusions pour engendrer des alertes 
synthetiques les plus generates et les plus pertinentes presentant une 

15 vision globale de I'ensemble des alertes et de facon entierement 
automatique. 

Ces buts sont atteints gr§ce a un precede de classification 
automatique d'un ensemble d'alertes issues de sondes de detection 
dlntrusions d'un systeme de securite dlnformation pour produire des 
20 alertes synthetiques, chaque alerte etant definie par une pluralite 
d'attributs qualitatifs appartenant a une pluralite de domaines d'attributs 
dont chacun est muni d'une relation d'ordre partiel, caracterise en ce qu'il 
comporte les etapes suivantes : 

-organiser les attributs appartenant a chaque domaine d'attribut en une 
25 structure hierarchique comportant plusieurs niveaux definis selon la 
relation d'ordre partiel du domaine d'attribut, la pluralite de domaines 
d'attributs formant ainsi plusieurs structures hierarchiques ; 
-construire pour chaque alerte issue des sondes de detection dlntrusions, 
un treillis propre a cette alerte en generalisant chaque alerte selon chacun 
30 de ses attributs et a tous les niveaux de la structure hierarchique, le treillis 
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propre comportant des nceuds correspondant a des alettes, lies entre eux 
par des arcs de sorte que chaque nceud est lie a un ou des nceuds parents 
et/ou un ou des nceuds enfants ou descendants ; 

-fuslonner de facon Iterative dans un treillis general, chacun des treillis 
5 propres ; 

-identifier dans le treillis general, les alettes synthetiques en selectionnant 

les alettes qui sont a la fbis les plus pertinentes et les plus generates selon 

des criteres statistiques et selon I'appartenance de leurs attributs a des 

niveaux inferieurs des structures hierarchiques; et 
10 -produire les alettes synthetiques a une unite de sortie d'un systeme de 

gestion d'alertes afin de presenter une vision globale de I'ensemble des 

alettes issues des sondes de detection dlntrusions. 

Ainsi, la methode selon I'invention est une methode 

incrementale et fournit des classes d'alertes potentiellement non 
15 disjointes. 

Selon un premier aspect de I'invention, la construction d'un 
treillis propre comporte les etapes suivantes : 

-recuperer pour tout attribut generalisable d'une alette donnee, la valeur 
generalisee de cet attribut a pattir de sa structure hierarchique pour 
20 former une nouvelle alerte plus generate que ladite alerte donnee ; 

-ajouter un nouveau nceud au treillis propre correspondant a la nouvelle 
alerte et ajouter un arc allant du nouveau nceud de la nouvelle alette au 
nceud de ralette donnee ; 

-ajouter des arcs manquants allant des nceuds parents de ralette donnee, 
25 issus de la generalisation de I'alerte donnee selon ses autres attributs, au 
nceud de la nouvelle alette. 

Selon un deuxieme aspect de I'invention, la fusion d'un treillis 
propre donne dans le treillis general comporte les etapes suivantes : 
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-selecBonner un premier noeud correspondant a une premiere alerte 

appartenant au treillis propre donne, et un second noeud correspondant a 

une seconde alerte appartenant au treillis general ; 

-supprimer tous les arcs provenant des nceuds parents d'un nceud enfant 
5 du premier nceud si ledit nceud enfant appartient aussi au treillis general, 

-ajouter au treillis general ledit noeud enfant et I'ensemble de ses 

descendants si ledit noeud enfant n'appartient pas au treillis general. 

Selon un troisieme aspect de I'invention, une alerte pertinente 

est identifiee lorsque chacun des ensembles des nceuds enfants de I'alerte 
10 pertinente issu d'une specialisation de cette alerte selon chacun de ses 

domaines d'attributs est homogene, et lorsque le nombre d'elements 

composant ledit chacun des ensembles des nceuds enfants de I'alerte 

pertinente est superieur a une valeur seuil. 

Avantageusement, les alettes synthetiques sont associees a des 
15 differents groupes d'alertes issus des sondes de sorte que ces groupes ne 

sont pas forcement mutuellement exclusifs. 

La pluralite des domaines d'attributs peuvent comporter des 

domaines parmi les ensembles suivants: ensemble des identifiants 

d'attaques, ensemble des sources d'attaques, ensemble des cibles 
20 d'attaques, et ensemble des dates d'attaques. 

^invention vise aussi un programme informatique concu pour 

mettre en ceuvre le precede ci-dessus, lorsquHl est execute par le systeme 

de gestion d'alerte. 

25 Breve descrip tion des dessins 

D'autres particularites et avantages de I'invention ressortiront a 
la lecture de la description falte 7 ci-apres, a titre indicatif mais non 
limitatif, en reference aux dessins annexes, sur lesquels : 
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-la figure 1 est une vue tres schematique d'un systeme de 
securite d'information comportant un systeme de gestion d'alertes selon 
rmvention ; 

-la figure 2 est un organigramme de formation d'un treillis 
5 propre selon Ifnvention ; 

-la figure 2A montre tres schematiquement le mecanisme de la 

figure 2 ; 

-la figure 3 est un organigramme de fusion d'un treillis propre 
dans un treillis general selon Hnvention ; 
10 -les figures 3A et 3B montrent tres schematiquement le 

mecanisme de la figure 3 ; 

-la figure 4 est un organigramme de selection des alertes 
synthetiques selon llnvention ; 

-la figure 5 montre de facpn tres schematique une alerte 
15 associee a differentes alertes synthetiques selon rmvention ; 

-les figures 6A a 6C montrent tres schematiquement des 
hierarchies simpJifiees associees aux differents domaines d'attributs des 
alertes selon Invention ; et 

-la figure 7 illustre un treillis general associe a deux alertes 
20 generalisees selon les hierarchies des figures 6A a 6C. 

Description detaillee de modes de realisation 

La figure 1 illustre un exemple d'un systeme de detection 
dlntrusions 1 relie au travers un routeur 3 a un reseau externe 5 et a un 
25 reseau interne 7a et 7b a architecture distribuee. 

Le systeme de detection dlntrusions 1 comporte plusieurs 
sondes de detection d'intrusions 11a, lib, 11c, et un systeme de gestion 
d'alertes 13. Ainsi, une premiere sonde 11a de detection d'intrusions 
surveille les alertes venant de I'exterieur, une deuxleme sonde lib 
30 surveille une partie du reseau interne 7a comprenant des stations de 
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travail 15 et un troisieme sonde 11c surveille une autre partie du reseau 
interne 7b comprenant des serveurs 17 delivrant des informations au 
reseau externe 5. 

Le systeme de gestion d'alerte 13 peut comporter un note 19 
5 dedie au traitement des alertes, une base de donnees 21, et une unite de 
sortie 23. 

Ainsi, les sondes 11a, lib, 11c deployees dans le systeme de 
detection dlntrusions 1 envoient (Heches 26) leurs alertes 25 au systeme 
de gestion d'alerte 13. Ce dernier, conformement a I'invention, procede a 
10 une classification automatique de cet ensemble d'alertes et envoie des 
alertes synthetiques a I'unite de sortie 23 afin de presenter une vision 
globale de I'ensemble des alertes issues des sondes de detection 
d"mtrusions 11a, lib, 11c. 

En effet, I'hote 19 du systeme de gestion d'alerte 13 comprend 
15 des moyens de traitement pour proceder a la classification automatique 
des alertes et le stockage de cette classification sous forme de treillis dans 
la base de donnees 21. 

Ainsi, un programme informatique congu pour mettre en ceuvre 
la presente invention peut etre execute par le systeme de gestion 
20 d'alertes. 

Les alertes et d'une maniere generate, les donnees qui peuvent 
faire I'objet d'une classification conceptuelle sont des n-uplets d'attributs 
(a v ..M.,...,a n ) e A l *-xAix...xA nr Ai etant un ensemble discret muni d'une 

relation d'ordre parKel < Ai definissant le domaine de I'attribut a t . 
25 Les ensembles partiellement ordonnes peuvent etre representes 

par un diagramme de Hasse, c'est a dire par un graphe acyclique dirige ou 
une structure hierarchique c7 = ( J 4 / ,cover(-:^ J .)) dont I'ensemble des noeuds 

est constitue des elements de Ai et I'ensemble des arcs est constitue par 
la couverture de la relation d'ordre partiel. 
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Dans le present mode de realisation, nous restreignons les 
hierarchies d'attributs a des arbres equilibres : chaque valeur d'attribut a 
au plus un seul parent et la distance des feuilies au sommet de 
I'arborescence est une constante. Toutefois, la presente invention peut 
5 itre facilement adaptee a des hierarchies plus elaborees. 

Une structure hierarchique peut §tre considered comme une 
structure arborescente ou I'anostre d'Un element b est un Element a tel 
que b < M a . Dans ce cas on dit que I'element a est plus abstrait ou plus 

general que I'element b, et reciproquement, on dit que I'element b est 
10 plus specifique que I'element a. 

En particulier, I'element a est un ancetre direct de b si 
(a,6)e covert Ai ), c'est-a-dire, sll n'existe pas un element intermediaire g 

entre les Elements a et b , ou de fagon formelle si * < Ai a et (%g/(g < Ai a 

etb-< A . g )). 

15 Les elements les plus specifiques d'un domaine d'attribut At, 

formant une structure hierarchique, definissent ce qu'on appelle les 
feuilies de cette structure hierarchique. Ainsi, une feuille / est un element 
/e Ai tel que Ige A, tel que g< Al f - 

Chaque attribut possede un niveau d'abstraction ou de 
20 generalisation, defini par un entier correspondent a la hauteur de I'attribut 
dans la structure hierarchique. Le niveau 0 est attribue a la racine de la 
hierarchie, c'est-a-dire a I'ensemble d'elements le plus general. Le niveau 
d'abstraction ou de generalisation d'un element quelconque vaut le niveau 
d'abstraction de son ancetre direct augmente de la valeur 1. 
25 Ainsi, chaque alerte peut §tre d^finie par une pluralite 

d'attributs qualitatifs {a lt ..jx t ,...«„) appartenant a une pluralite de 
domaines d'attributs {A\,...,AU...An) dont chacun est muni d'une relation 
d'ordre partiel. 
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Les attribute appartenant a ehaque domaine d'attribut Ai 
peuvent done §tre organises en une structure hierarchique comportant 
plusieurs niveaux definis selon la relation d'ordre partiel du domaine 

d'attribut. Alors, la plurality de domaines d'attribute (Al Ai,..An) forme 

5 plusieurs structures hierarchiques. 

D'une maniere generate, on parlera de « concept » pour 
designer un element quelconque de Alx...xAn. En outre, les concepts 
non generalises, e'est-a-dire les concepts dont les attribute 
n'appartiennent qu'aux feuilles des hierarchies sont appeles des 

10 « individus ». Ainsi, les alertes issues des sondes de detection d'lntrusions 
11a, lib, 11c peuvent §tre considerees comme des individus qui font 
I'objet de la classification. 

L'objectif de la classification selon Hnvention est d'identifier des 
concepts pertinents en effectuant des generalisations successives sur les 

15 attribute des individus, en fonction de leur relation d'ordre partiel. 

Les concepts a classifier sont structures dans un treillis 
T = (C,K) ou R^CxC, et C est I'ensemble des nceuds du treillis 
correspondant aux concepts. Ainsi, dans un treillis la notion de concept 
peut etre confondue avec celle du nceud. 

20 II existe un lien (c l9 c 2 )e R du noeud c x vers le nceud c 2 si c x 

est issu de I'abstraction ou de la generalisation de c 2 selon n'importe quel 
attribut. On note t(c 1 ) = {c 2 eC/(c 2 ,c 1 )e r} I'ensemble des nceuds 
parents du nceud c x . De meme, on note l(c l ) = {c 2 e C/(c u c 2 )e R} 
I'ensemble des noeuds enfants de c x . 

25 Le sous-ensemble i Ai (c) de I'ensemble i (c) est I'ensemble 

des nceuds enfants de c, issus de la specialisation de c selon le domaine 
d'attribut Ai . 
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De mime, le sous-ensemble 1 M (c) de I'ensemble t (c) est 
Pensemble des nceuds parents de c, issus de la generalisation de c selon 
le domaine d'attribut At . 

On notera que la relation i Ai peut itre consideree comme une 
fonction lorsque la structure hierarchique est une structure arborescente. 

Ainsi, on peut definir une relation d'ordre partiel <i sur 
I'ensemble des concepts de la maniere suivante : 

\3Ai,c x [Ai\-< Ai c 2 [Ai\\ 

[vAj^UjhAiCiUj])' 

ou c[Ai] designe I'attribut appartenant au domaine d'attribut Ai du 
10 concept c. 

Cette relation d'ordre partiel <i permet de construire pour 
chaque individu /, en particulier pour chaque alerte issue des sondes de 
detection dlntrusions, un treillis propre a cette alerte en generalisant 
chaque alerte selon chacun de ses attributs et a tous les niveaux de la 
15 structure hierarchique. 

Formellement, si i = (a 1 ,...,a n ) est un individu, le treillis propre 

Ti = (Ci,Ri) associe a llndividu i est defini de la maniere suivante : 
Ci = fei,..x n )e Alx...An/ aj< AJ c j\ 

\ ( v ^ „.pAl/(cj[Allc k [Al])ecover{-< Al )r 
iJi = |(c,,c,)eQxQ/| VA ^ AhCj[Am]=Ck[Am ] )• 

20 Ainsi, un treillis general contenant I'ensemble des concepts peut 

etre construit par ajouts successifs des treillis propres. 

L'insertion d'un individu dans le treillis general se fait en 
fusionnant le treillis propre a I'individu avec le treillis general. 

Formellement f etant donne I'ensemble I d'individus, le treillis 
25 general T = (C,R) est defini de la maniere suivante : 
C=UCi etR = \jRi 

iel iel 
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Ainsi, un treillis propre peut etre construit pour chaque alerte 
issue des sondes de detection d'intrusions 11a, lib, 11c. Ce treillis propre 
comporte done des nceuds correspondant a des alertes, lies entre eux par 
des arcs de sorte que chaque nceud est lie a un ou des nceuds parents 
5 et/ou un ou des noauds enfants ou descendants. 

Ensuite, chacun des treillis propres associes aux alertes issues 
des sondes de detection d'intrusions peut etre fusionne de facon iterative 
dans le treillis general. 

Finalement, des alertes synthetiques peuvent §tre identifiees 
10 dans le treillis general, en selectionnant les alertes qui sont a la fois les 
plus pertinentes et les plus generates selon des criteres statistiques et 
selon I'appartenance de leurs attributs a des niveaux inferieurs des 
structures hierarchiques. 

En effet, les figures 2 a 4, montrent des organigrammes 
15 illustrant la formation du treillis propre a un individu donne, la fusion d'un 
treillis propre donne dans le treillis general, et la selection des concepts 
pertinents et generaux. 

L'organigramme de la figure 2 montre la formation d'un treillis 
propre a un individu donne. Plus particulierement, ii montre la 
20 construction d'un treillis propre Ti = (Ci,Ri) en cours d'elaboration au 
voisinage d'un concept donne ou alerte donnee. 

Ainsi, a I'etape EO, on definit le concept donne c = (a 1 ,...,a n ) 

ainsi que Hndice / correspondant a Hndice de I'attribut a partir duquel la 
generalisation est mise en ceuvre, sachant que les generalisations selon 
25 les attributs dlndices inferieurs sont considerees comme correspondant a 
des concepts qui ont deja ete ajoutes au treillis propre Ti au cours 
d'appels recursifs anterieurs. 

Les etapes El a E3 sont une boucle principale qui itere sur les 
indices d'attributs selon lesquels le nceud donne en parametre, a I'etape 
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E0, va §tre generalised Llteration est faite pour tous les indices k entre / 
et n et pour tous les attributs a k generalisables. 

Ainsi, pour tout attribut a k qui peut etre generalise a partir de 
sa structure hierarchique, on calcule a I'etape E2 la fonction genAtt(c,k) 
5 qui recupere la valeur de I'attribut qui generalise celui de a k pour former 
un concept p correspondent a la generalisation du concept c selon 
Hndice k. 

Ce concept generalise p est ajoute au treillis Ci = CiUp et un 
arc est ajout£ allant du concept c vers le concept p, c'est-a-dire 
10 Ri = Ri\J{(p,c)}. 

L'^tape E3 est une boucle interne qui ajoute les arcs manquants 
allant des noeuds parents du concept c, issus de la generalisation de c 
selon tous les attributs dlndice inferieur ou egal a k , c'est-a-dire 



pour des nouveaux parametres. 

Ainsi, I'algorithme de la formation d'un treillis propre pour un 
concept donne c peut etre decrit comme ci-dessous : 



Ri = Ri\j{T Aky t Ah (c\p)}. 



15 



L/etape E4 est un appel recursif ou I'organigramme est applique 



20 



Algorithme :Tre////s propre 
Donnees : Le concept c = {a u ...,a n ), 

Hndice I de /'attribut a partir duquel generalise^ 

le treillis Ti = {d,Ri) en cours 



d'elaboration. 



25 



pourkt [/;«] faire 

si a k est ge*neralisable, alors 



p = genAtt{c,k) 
Ci = Ci\Jp 



30 



Ri = Ri\j{{p,c)} 
pour h(=[o,k] faire 



Ri^Ri\^ Ak ^ Ah {p),p\ 
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fin 

fin 

Treillis propre{p,k t Ti) 

fin. 

5 

Plus particulierement, la figure 2A montre un exemple de la 
construction du treillis propre 31 a partir d'une alerte donnee 
correspondant a un noeud donne A selon le deuxieme attribut du noeud A. 
Autrement dit, a partir des parametres d'appel (c = A,k = 1,2? = 7b) . 

10 D'une maniere generate, pour tout attribut generalisable de 

I'alerte donnee, on recupere la valeur generalisee de cet attribut a partir 
de sa structure hierarchique pour former une nouvelle alerte plus generate 
que I'alerte donnee. 

Selon cet exemple, a I'etape k = 2 de l'algorithme, un nouveau 

15 nceud D correspondant a la nouvelle alerte formee selon la generalisation 
du deuxieme attribut du noeud A, est ajoute au treillis propre ainsi qu'un 
arc (D, A) allant du nouveau nceud D de la nouvelle alerte au nceud A de 
I'alerte donnee. 

Ensuite des arcs manquants allant des nceuds parents de 
20 I'alerte donnee A au noeud D de la nouvelle alerte sont ajoutes. Les 
nceuds parents de I'alerte donnee sont issus de la generalisation de I'alerte 
donnee selon ses autres attributs. 

Selon cet exemple, a I'iteration precedente (k = 1), le treillis de 
sommet B a ete construit. Les generalisations de D selon des attributs 
25 dont I'indice est inferieur a Aront deja ete ajoutees, en I'occurrence C, pour 
k = 1. Ainsi, seul Tare manquant (C, Z^est ajoute. 

L'algorithme est re-execute recursivement avec comme 
parametres (D, 1, T). 

D'une maniere generate, le treillis propre a un individu 
30 i = {a u ...,a„) est obtenu en appelant l'algorithme Treillis Propre 

(c = Uk = UTi =({/},{}))* 
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sachant qu'au depart, le treillis propre associe au noeud i est forme d'un 

seul noeud et I'ensemble des arcs est encore vide. 

L'organigramme de la figure 3 montre la fusion d'un treillis 

propre donn6 dans le treillis general. 
5 A I'etape E10, les parametres dlnitialisation sont definis. En 

particulier, il est selectionne un premier noeud correspondant a une 

premiere aierte ou concept h appartenant au treillis propre Ti = {a,Ri), et 

un second noeud correspondant a une seconde aierte ou concept g 

appartenant au treillis general T = (C,R). 
10 La boucle principale entre les etapes Ell et E14 ou E15, itere 

sur I'ensemble des noeuds enfants du noeud h du treillis propre passe en 

parametre, c'est-a-dire pour hj &l{h). 

Ainsi, a I'etape Ell un nceud enfant hj du premier noeud h est 

choisi. 

15 a I'etape E12 7 on verifie si ce nceud enfant h y du premier noeud 

h appartient aussi au treillis general. Autrement dit, on verifie si 
3 gj Gi{g) tel que gj=hj. 

Dans I'affirmative, tous les arcs provenant des noeuds parents 
de ce nceud enfant sont supprimes Ri = Ri- 1 (hj) a I'etape E13, avant de 

20 passer a I'etape E14. 

En effet, la proposition suivante dit que si un noeud h } d'un 

treillis propre existe deja dans le treillis general, alors I'ensemble de ses 
parents s'y trouve aussi, c'est-a-dire : 

(hj e a A3g ft e C,hj = g & )=>t (h)cC. 
25 L'etape E15 est un appel recursif ou l'organigramme est 

appliqu^ a nouveau a partir de I'etape Ell mais pour des nouveaux 
parametres. 
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En effet, les enfants du noeud hj ne sont pas forcement dans le 
treillis general, il faut done exporter recursivement I'algorithme sur ce 
noeud hj. 

En revanche, si le nceud enfant n'appartient pas au treillis 
5 general, alors il suffit de IV ajouter T = T\jThj ainsi que I'ensemble de 

ses descendants a I'etape E15 avant de revenir a I'etape Ell. 

La contraposee de la proposition precedente nous assure qu'il 
n'y aura pas de duplication de nceuds. 

Ainsi, I'algorithme de la fusion d'un treillis propre au treillis 

10 general peut etre decrit comme ci-dessous : 

Algorithme : Fusion Treillis 

Donnees : Un concept g du treillis general T = {C,R), 

un concept h du treillis propre Ti = (Ci,Ri) de 

Hndividui 

15 pour chaque concept h j e 1(h) faire 

si 3gj si (g) tel que gj=hj alors 
Ri = Ri-t(hj) 
Fusion Treillis (gj,hj) 



fin 

20 sinon 



25 



Ri = Ri-{(h,hj)\ 
T=TUThj 



fin 



fin. 



Les figures 3A et 3B schematised le mecanisme de fusion d'un 
treillis propre au treillis general, selon I'organigramme de la figure 3. 

Dans ces deux figures 3A et 3B, la portion de treillis de gauche 
appartient au treillis general et celle de droite au treillis propre que I'on 
30 souhaite fusionner. Les nceuds grises sont les parametres d'appel de 
ralgorithme. lis sont egaux, par hypothese (A = A'). 

Selon la figure 3A, Pun des enfants B' de A' est deja present 
dans A (B' = B). Les liens 41, 43, et 45 vers les ancetres immediats de B' 
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sont supprimes car on sait qu'ils sont deja dans le treillis general. 
L'algorithme est alors appele recursivement sur Bet B*. 

Selon la figure 3B, le nceud C n'existe pas en tant qu'enfant de 
A, alors un lien 47 (en pointilles) est cree entre A et C, et le lien 49 qui 
5 liait C a A' est supprime. Le sous treillis ayant comme sommet C est done 
integre au treillis general. 

L'algorithme est appele avec comme arguments les sommets du 
treillis propre a I'individu a inserer et le sommet du treillis general. Comme 
tous les treillis ont un meme sommet correspondant au nceud le plus 
10 general, I'hypothese selon laquelle les concepts passes en arguments a 
l'algorithme sont egaux est respectee. 

L'organigramme de la figure 4 montre Hdentification des alertes 
ou concepts synthetiques fournissant un ensemble P des alertes ou 
concepts qui sont a la fois les plus pertinents et les plus generaux d'une 
15 alerte ou d'un concept c . 

Une alerte ou un concept c est dit pertinent si chacun des 

ensembles i Ai (c) est « homogene » et « suffisamment grand ». 

Un ensemble d'alertes ou de concepts est homogene si la 
dispersion du nombre d'individus couverts par chaque concept n'est pas 
20 trop grande. On utilise a cet effet, de facon connue un coefficient de 
variation. 

Un ensemble i M (c) est suffisamment grand si le nombre 
d'elements qui le compose est superieur a une valeur seuii liee au niveau 
d'abstraction ou de generalisation de I'attribut Ax de c . 
25 l=ormellement : 



\Ai\>i; CAi et^-<l 
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ou la fonction p(c) designe une fonction booleenne indiquant si un noeud 
est pertinent; F Ai est I'ensemble forme des d'individus couverts par 
chaque concept de l Ai (c) ; m Fju est ia moyenne de F Ai ; o Fju sa 
variance; et t Cm represente la valeur de seuil liee au niveau d'abstraction 
5 du domaine d'attribut Ai de c . 

Le nombre d'individus couverts par un concept est une valeur 
liee a chaque noeud du treillis et mise a jour lors de la fusion d'un treillis 
propre associe a un individu avec le treillis general. 

Ainsi, une alerte est dite pertinente si chacun des ensembles 
10 des nceuds enfants de I'alerte pertinente c issus de la specialisation de 
cette alerte c selon chacun de ses domalnes d'attributs est homogene, et 
si le nombre d'elements composant chacun des ensembles des noeuds 
enfants de I'alerte pertinente c est superieur a une valeur seuil. 

L'etape E20 de I'organigramme de la figure 4, correspond a la 
15 definition des parametres d'appel. Ces parametres comportent un concept 
c du treillis general t = {c,r), un ensemble P des concepts pertinents 
precedemment trouves, et un entier t utilise pour le parcours du treillis. 

L'etape Ell, est un test pour verifier la pertinence de c . Ainsi si 
le concept c est pertinent, alors on passe a l'etape E22, ou le concept c 
20 est ajoute a I'ensemble P des concepts pertinents ? = PU{c}, et 
I'ensemble des concepts plus specifiques que c eventuellement ajoutes 
precedemment sont elimines de I'ensemble p, c'est-a-dire 
P = P -{c t e P/c t < c}. En effet, on cherche les concepts les plus abstraits, 

tout en etant pertinents. 
25 En revanche, si c n'est pas pertinent, alors I'algorithme est 

applique recursivement, a I'etapes E23 sur I'ensemble des enfants de c 
issus de la specialisation de c selon les attributs d'indices i superieurs ou 



WO 2005/060160 



20 



PCT/FR2004/003251 



egaux a t, c'est-a-dire e,e i Ai (c), sachant que les autres attribute ont 

deja ete analyses. 

Quand ralgorithme se termine, une liste comportant les 
concepts juges pertinents et genera ux est fournie a I'unite de sortie 23 du 
5 systeme de gestlon d'alertes 13 afin qu'un operateur de securite pulsse 
avoir une vision globale de I'ensemble des alertes. Si ce dernier souhaite 
des details sur un concept quelconque c qu'il juge trop abstrait, alors 
ralgorithme est re-execute sur I'ensemble des enfante de ce concept c. 

Ainsi, ralgorithme d'identification des concepts synthetiques 
1 0 peut etre d^crit comme ci-dessous : 

Algorithme : Synthetiques 

Donnees : Un concept c du trelllis general T = (C, ie), 
un ensemble P des concepts pertinents pre'ce'demment trouves 
un entiert utilise pour le parcours du treillis 
15 si p(c) alors 

P = P-{c i e Plc t <c} 
P = PU{c} 

fin 

sinon 

pourl<=[t,n\ faire 

pourchaque element c t € l M (c) faire 
Synthe&quesfa ,P,l) 
fin 

fin 

fin 

30 On notera que les alertes synthetiques sont associees a des 

differente groupes d'alertes issus des sondes de sorte que ces groupes ne 
sont pas forcement mutuellement exclusife. 

En effet, la figure 5 montre de facon tres schematique une 
alerte associee a differentes alertes synthetiques. 



20 



25 
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Les alertes Al a A6 emises par les sondes de detection 
d'intrusions sont les feuilles du treiilis general. Le groupe d'alertes associe 
a une alerte generale est I'ensemble des feuilles accessibles depuis cette 
alerte generate. 

5 Ainsi, le groupe d'alerte A123 est associe a I'alerte synthetique 

SI et le groupe d'alerte A34 est associe a I'alerte synthetique S2. En 
revanche, les alertes A4 a A6 sont associees a une alerte generale A7 qui 
n'est pas une alerte synthetique. 

Etant donne la structure m§me du treiilis, les groupes d'alertes 
10 ne sont pas mutuellement exclusifs. Ainsi, I'alerte A3 participe a deux 
phenomenes, c'est-a-dire a deux groupes d'alertes diffeVents A123 et A34. 

Les alertes issues de sondes de detection d'intrusions sont des 
individus definis par une pluralite d'attributs appartenant a une pluralite de 
domaines d'attributs. Les domaines d'attributs peuvent comporter un 
15 ensemble des identifiants d'alertes, un ensemble des sources d'attaques, 
un ensemble des cibles d'attaques, et un ensemble des dates d'attaques. 

Les figures 6A a 7, montrent un exemple simplifie de 
classification d'un ensemble d'alertes issues de sondes de detection 
d'intrusions. 

20 Selon cet exemple, les alertes sont des triplets 

(nom,src,dst)e NxSxD, ou N represente I'ensemble des identifiants 
d'alertes, S represente I'ensemble des sources d'attaques, et D 
represente I'ensemble des cibles d'attaques. Dans d'autres exemples, les 
alertes pourraient etre constitutes d'autres types d'attributs, ou bien les 

25 memes mais avec des domaines definis diffieremment. 

Au niveau d'abstraction le plus bas, les identifiants d'alertes 
sont les identifiants de signatures de Poutil de detection d'intrusions 
Snort™. Le niveau d'abstraction superieur est constitue des classes 
d'attaques definies par Snort™. Le niveau d'abstraction superieur est 

30 constitue d'un seul element, « any». 
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En effet, la figure 6A montre une hierarchie simplifiee assodee 
au domaine de I'ensemble des identifiants. Le premier niveau d'abstraction 
ou de generalisation Nil comporte les elements « attl » et « att2 ». Les 
deuxieme et troisieme niveaux de generalisation N12, N13 comportent les 
5 elements « web-attack » et « any » respectivement. 

Au niveau d'abstraction le plus bas, les sources d'attaques sont 
des adresses du type IPv4. Le niveau d'abstraction superieur est constitue 
des noms de domaines de reseau geres par I'organisme IANA™ et ses 
branches locales (RIPE, APNIC, ARIN, etc.). Les adresses IP non 

10 enregistrees dans la base IANA™ ou les adresses publiques internes au 
systeme d'information surveilie ou les adresses IP privees, sont abstraites 
en notation du type QDR (par exemple 192.168.0.0/24). Le niveau 
supeVieur peut €tre constitue de deux Elements, « external » et 
« internal » pour designer I'exterieur et I'interieur du systeme 

15 d'information. Le niveau d'abstraction suivant est constitue d'un seul 
element, « any ». 

L'exemple de la figure 6B montre une hierarchie simplifiee 
assoclee au domaine de I'ensemble de sources d'attaques. Le premier 
niveau d'abstraction ou de generalisation comportant les elements 

20 « 192.168.0.1 » et « 192.168.0.33 ». Les deuxieme et troisieme niveaux 
de generalisation comportent les elements « internal » et « any » 
respectivement. 

Au niveau d'abstraction le plus bas, les cibles d'attaques sont 
les adresses IP publiques et privees du systeme d'information. Le niveau 
25 d'abstraction suivant est constitue des adresses de reseau en notation 
CIDR. Le niveau d'abstraction suivant est constitue d'un seul element, 
« any ». 

La figure 6C montre une hierarchie simplifiee associee au 
domaine de I'ensemble de cibles d'attaques. Les premier, deuxieme et 
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troisieme niveaux d'abstraction ou de generalisation comportent les 
elements « 192.168.0.10 », « proxy », et « any » respectivement. 

La figure 7 illustre un treillis general associe a deux alertes Al 
et A2 definls par Al(att2, 192.168.0.1, 192.168.0.10) et A2(attl, 
5 192.168.0.33, 192.168.0.10). 

Selon cet exemple et d'apres les hierarchies d'attributs des 
figures 6A a 6C, les identifiants d'attaque sont generalises en classe 
d'attaque « web-attack », puis en « any ». 

Les adresses IP des attaquants sont generalisees en 
10 « internal » puis en « any ». 

Les adresses IP des victimes sont generalisees en fonction 
d'h6te « proxy », puis en « any ». 

Selon cet exemple, tl y a deux attaquants distincts 192.168.0.1 
de I'alerte Al et 192.168.0.33 de I'alerte A2 qui sont des adresses IP 
15 internes. II y a une seule victime 192.168.0.10, qui est un proxy web. 

L'alerte la plus abstraite inferee par le systeme est (any, any, 
any). Les fleches pleines denotent une generalisation selon I'attribut qui 
correspond a I'attaque, les fleches en tirets denotent une generalisation 
selon I'attribut qui correspond a I'attaquant, et les fleches en pointings 
20 denotent une generalisation selon I'attribut qui correspond a la victime. 

A Tissue du processus de selection des alertes pertinentes, le 
systeme propose I'alerte synthetique (web-attack, internal, proxy). Les 
autres alertes sont soit trop generates, soit trop specifiques. 
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REVENDICATIONS 

1. Procede de classification automatique d'un ensemble d'alertes issues de 
sondes de detection dlntrusions (11a, lib, 11c) d'un systeme de securite 
5 deformation (1) pour produire des alertes synthetiques, chaque alerte 
etant definie par une pluralite d'attributs qualitatifs (a x ,...,a n ) appartenant 

a une pluralite de domaines d'attributs (Al,...,An) dont chacun est muni 
d'une relation d'ordre partiel, caracterise en ce qull comporte les etapes 
suivantes : 

10 -organiser les attributs appartenant a chaque domaine d'attribut en une 
structure hierarchique comportant plusieurs niveaux definis selon la 
relation d'ordre partiel du domaine d'attribut, la pluralite de domaines 
d'attributs formant ainsi plusieurs structures hierarchiques ; 
-construire pour chaque alerte issue des sondes de detection dlntrusions 

15 (11a, lib, 11c), un treillis propre a cette alerte en generalisant chaque 
alerte selon chacun de ses attributs et a tous les niveaux de la structure 
hierarchique, le treillis propre comportant des nceuds, correspondent a des 
alertes, lies entre eux par des arcs de sorte que chaque nceud est lie a un 
ou des nceuds parents et/ou un ou des nceuds enfants ou descendants ; 

20 -fusionner de facon iterative dans un treillis general, chacun des treillis 
propres ; 

-identifier dans le treillis general, les alertes synthetiques en selectionnant 
les alertes qui sont a la fols les plus pertinentes et les plus generates selon 
des criteres statistiques et selon I'appartenance de leurs attributs a des 
25 niveaux inferieurs des structures hierarchiques; et 

-produire les alertes synthetiques a une unite de sortie (23) d'un systeme 
de gestion d'alertes (13) afin de presenter une vision globale de 
I'ensemble des alertes issues des sondes de detection dlntrusions (11a, 
lib, 11c). 

30 
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2. Procede selon la revendication 1, caracterise en ce que la construction 
d'un treillis propre comporte les etapes suivantes : 

-recuperer pour tout attribut generalisable d'une alerte donnee, la valeur 
generalisee de cet attribut a partir de sa structure hierarchique pour 
5 former une nouvelle alerte plus generate que ladite alerte donnee ; 

-ajouter un nouveau nceud au treillis propre correspondant a la nouvelle 
alerte et ajouter un arc allant du nouveau noeud de la nouvelle alerte au 
nceud de I'alerte donnee ; 

-ajouter des arcs manquants allant des nceuds parents de I'alerte donnee, 
10 issus de la generalisation de I'alerte donnee selon ses autres attributs, au 
nceud de la nouvelle alerte. 

3. Procede selon I'une quelconque des revendications 1 et 2, caracterise 
en ce que la fusion d'un treillis propre donne dans le treillis general 

15 comporte les etapes suivantes : 

-selectionner un premier nceud correspondant a une premiere alerte 
appartenant au treillis propre donne, et un second nceud correspondant a 
une seconde alerte appartenant au treillis general ; 
-supprimer tous les arcs provenant des nceuds parents d'un nceud enfant 

20 du premier nceud si ledit nceud enfant appartient aussi au treillis general, 
-ajouter au treillis general ledit nceud enfant et I'ensemble de ses 
descendants si ledit nceud enfant n'appartient pas au treillis general. 

4. Procede selon I'une quelconque des revendications 1 a 3, caracterise en 
25 ce que une alerte pertinente est identifiee lorsque chacun des ensembles 

des nceuds enfants de I'alerte pertinente issus d'une specialisation de 
cette alerte selon chacun de ses domaines d'attributs est homogene, et 
lorsque le nombre d'elements composant ledit chacun des ensembles des 
nceuds enfants de I'alerte pertinente est superieur a une valeur seuil. 
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5. Procede selon Tune quelconque des revendications la4, caracterise en 
ce que les alettes synthetiques sont associees a des differents groupes 
d'alertes issus des sondes de sorte que ces groupes ne sont pas 
mutuellement exclusifs. 

5 

6. Procecle selon Tune quelconque des revendications 1 a 5, caracterise en 
ce que la pluralite des domaines d'attributs comporte des domaines parmi 
les ensembles suivants : ensemble des Identifiants d'alertes, ensemble des 
sources d'attaques, ensemble des cibles d'attaques, et ensemble des dates 

10 d'attaques. 

7. Programme informatique caracterise en ce qull est congu pour mettre 
en ceuvre le procede selon Tune quelconque des revendications 1 a 6 
lorsqull est execute par le systeme de gestion d'alertes (13). 
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